319 research outputs found
Die thematische Erschließung von Sprachkorpora
Ziel des Teilprojekts ist die thematische Erschließung der Korpora, um sowohl themenspezifische virtuelle Subkorpora zusammenstellen zu können als auch aufgrund der Analyse sachgebietsbezogener Häufigkeitsverteilungen z.B. Lesarten disambiguieren zu können. Ausgangspunkt ist die Erstellung einer Taxonomie von Sachgebietsthemen. Dies erfolgt in einem semiautomatischen Verfahren, welches die Anwendung von Textmining (Dokumentclustering) und die manuelle Zuordnung von Clustern in eine externen Ontologie beinhaltet. Es wird argumentiert, dass die so gewonnene Taxonomie sowohl intuitiver als auch objektiver ist als bestehende, rein manuelle Ansätze. Sie eignet sich zudem gleichermaßen für manuelle als auch für maschinelle Klassifikation. Für letzteres wird der Naive Bayes'sche Textklassifikator motiviert und für ein klassifiziertes Korpus von knapp zwei Milliarden Wörtern evaluiert
An Explicit non-Poissonian Pair Correlation Function
A generic uniformly distributed random sequence on the unit interval has
Poissonian pair correlations. At the same time, there are only very few
explicitly known examples of sequences with this property. Moreover, many types
of deterministic sequences, which are important in other contexts of
equidistribution theory, have been proven to fail having the Poissonian pair
correlation property. In all known examples for the non-Poissonian case, rather
sophisticated arguments were used to derive information on the limiting pair
correlation function. In this paper, we derive therefore the first elementary
such example, namely for the sequence , which is also a low-dispersion sequence.
The proof only heavily relies on a full understanding of the gap structure of
. Furthermore, we discuss differences to the weak
pair correlation function.Comment: Further relevant references adde
- …